Aprenentatge a classificar [1] o classificació aprenent automàticament (amb acrònim anglès MLR) és l'aplicació de l'aprenentatge automàtic, normalment supervisat, semisupervisat o de reforç, en la construcció de models de classificació per a sistemes de recuperació d'informació.[2] Les dades d'entrenament consisteixen en llistes d'elements amb algun ordre parcial especificat entre els elements de cada llista. Aquest ordre s'indueix normalment donant una puntuació numèrica o ordinal o un judici binari (per exemple, "rellevant" o "no rellevant") per a cada ítem. L'objectiu de construir el model de classificació és classificar llistes noves i no vistes de manera similar a les classificacions a les dades d'entrenament.
La classificació és una part central de molts problemes de recuperació d'informació, com ara la recuperació de documents, el filtratge col·laboratiu, l'anàlisi de sentiments i la publicitat en línia.
A la figura adjunta es mostra una possible arquitectura d'un motor de cerca aprenent per màquina.
Les dades d'entrenament consisteixen en consultes i documents que les coincideixen juntament amb el grau de rellevància de cada coincidència. Pot ser preparat manualment per avaluadors humans (o avaluadors, com els anomena Google), que comproven els resultats d'algunes consultes i determinen la rellevància de cada resultat. No és factible comprovar la rellevància de tots els documents i, per tant, normalment s'utilitza una tècnica anomenada agrupació: només es comproven els pocs documents principals, recuperats per alguns models de classificació existents. Aquesta tècnica pot introduir un biaix de selecció. Alternativament, les dades d'entrenament es poden derivar automàticament mitjançant l'anàlisi dels registres de clics (és a dir, resultats de cerca que van obtenir clics d'usuaris),[3] cadenes de consultes,[4] o característiques dels motors de cerca com el SearchWiki de Google (substituït des d'aleshores). Els registres de clics poden estar esbiaixats per la tendència dels usuaris a fer clic als principals resultats de la cerca en el supòsit que ja estan ben classificats.
Exemples de mesures de qualitat de classificació:
© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search